Основы генеративного ИИ на Python: от подсчетов к контексту: эволюция обработки естественного языка

Эволюция обработки естественного языка (NLP) представляет собой фундаментальный переход от рассмотрения языка как дискретных изолированных символов к отображению его в непрерывном многомерном пространстве векторов. Мы перешли от простых представлений на основе признаков к глубоким семантическим картам.

Сдвиг в представлении

Статистическая эра (разреженные): Ранняя обработка естественного языка опиралась на алгоритм TF-IDF. Хотя он эффективен для поиска, он страдает от «проклятья разреженности». В системе TF-IDF векторы слов «Врач» и «Доктор» ортогональны — математически они не связаны между собой.
Революция распределённых представлений (ННЛМ и Word2Vec): Модели языковых нейронных сетей ввели плотные векторы. Word2Vec (Skip-gram/CBOW) учится тому, что слова, появляющиеся в схожих контекстах, должны быть соседями в пространстве.
Глобальная статистика (GloVe): Глобальные векторы заполняют пробел, анализируя общую совместную встречаемость по всему корпусу, обеспечивая, чтобы расстояние отражало математическую семантическую близость.

Глубокое понимание

Переход от подсчёта вхождений к прогнозированию контекста позволяет моделям улавливать тонкие различия. Такое «распределённое представление» означает, что значение одного слова распределено по сотням измерений вектора, каждое из которых может представлять скрытый семантический признак, такой как пол, королевская власть или медицинский контекст.

Анализ эволюции: с 2017 по GPT-4

Связь основ с современными генеративными моделями

Группа исследователей обновляет поисковую систему 2010 года, основанную на ключевых словах, до современной генеративной ИИ-системы. Они отслеживают свой прогресс с помощью этапов, представленных на рисунке 3.3.

Вопрос

1. Почему мильный камень 2017 года — архитектура Трансформер — считается «точкой перелома» пути от Word2Vec к GPT-4?

Ответ:
Трансформер вышел за рамки статических векторных представлений слов и перешёл к «контекстуальным» векторам с использованием механизма самовнимания, позволяя одному и тому же слову изменять свой вектор в зависимости от окружающих слов, что стало основой для моделей GPT.

Вопрос

2. Сравните требования к памяти для словаря из 100 000 слов в формате TF-IDF и для векторного представления GloVe размером 300 измерений.

Ответ:
TF-IDF требует разреженного вектора размером 100 000 для каждого документа, что приводит к огромным расходам памяти. Векторное представление GloVe представляет любое слово в плотном, фиксированном пространстве из 300 измерений, что намного эффективнее для обработки нейросетями.